Vision Banana
https://vision-banana.github.io/#capabilitiesProject
https://arxiv.org/abs/2604.20329Image Generators are Generalist Vision Learners
https://gyazo.com/cbd9565ee4dff7e9ceca1992ac025056
画像生成モデルの事前知識を使って、 セグメンテーションや単眼深度推定などのCVタスクを、画像編集として再定義して扱う (with Nano Banana)
当然、出力はRGB画像なので、 metric depth や class ID などのタスク固有の値は、 可逆(または準可逆)なカラーマッピングとして符号化・復号される
棒人間から画像生成できるんだから逆もできるよね?というのは自然な発想…nomadoor.icon
もっといえば、画像生成モデルは世界を理解しているのだから、明確に対応付けされていなくてもいろんなタスクが画像編集でできるよね?というのは広くあったアイデアだな
推論速度によるけど、CV専門モデルと違って自然言語理解できるし、全部取り込まれるんだろうか
オープンモデルでLoRA作るだけでできそうだな…やってみようか
関連
Marigold
#Google_DeepMind